Skip to main content

Asap-zzhou's group workspace

Timestamps visible
2025-10-31 10:57:23
  0%|          | 0/29260 [00:00<?, ?it/s]We strongly recommend passing in an `attention_mask` since your input_ids may be padded. See https://huggingface.co/docs/transformers/troubleshooting#incorrect-output-when-padding-tokens-arent-masked.
2025-10-31 10:57:23
You may ignore this warning if your `pad_token_id` (50283) is identical to the `bos_token_id` (None), `eos_token_id` (50283), or the `sep_token_id` (50282), and your input is not padded.
2025-10-31 10:57:31
  1%|          | 301/29260 [00:29<42:08, 11.45it/s] 
2025-10-31 10:57:32
{'loss': 3.5896, 'grad_norm': 5.75, 'learning_rate': 3.0758714969241285e-07, 'epoch': 0.01}
2025-10-31 10:57:33
{'loss': 3.204, 'grad_norm': 13.3125, 'learning_rate': 6.493506493506494e-07, 'epoch': 0.01}
2025-10-31 10:57:33
{'loss': 3.3654, 'grad_norm': 26.25, 'learning_rate': 9.91114149008886e-07, 'epoch': 0.02}
2025-10-31 10:57:34
{'loss': 4.0813, 'grad_norm': 28.25, 'learning_rate': 1.3328776486671223e-06, 'epoch': 0.03}
2025-10-31 10:57:35
{'loss': 4.9625, 'grad_norm': 56.75, 'learning_rate': 1.674641148325359e-06, 'epoch': 0.03}
2025-10-31 10:57:36
{'loss': 3.7792, 'grad_norm': 12.75, 'learning_rate': 2.0164046479835953e-06, 'epoch': 0.04}
2025-10-31 10:57:36
{'loss': 3.0446, 'grad_norm': 7.4375, 'learning_rate': 2.358168147641832e-06, 'epoch': 0.05}
2025-10-31 10:57:37
{'loss': 3.2899, 'grad_norm': 11.875, 'learning_rate': 2.6999316473000685e-06, 'epoch': 0.05}
2025-10-31 10:57:38
{'loss': 3.5924, 'grad_norm': 22.25, 'learning_rate': 3.0416951469583047e-06, 'epoch': 0.06}